Meta最新模型：LIMA-65B，没有RLHF，模型效果远胜Alpaca！！

Original ShuYini AINLPer 2023-07-10

收录于合集 #论文分享 135个

点击上方“AINLPer“，设为星标

更多干货，第一时间送达

引言

大型语言模型的训练分为两个阶段：(1)无监督地从原始文本中进行预训练以学习通用表示；(2)进行大规模指令调优和强化学习，以更好地对齐特定任务和用户偏好。今天给大家分享的这篇文章是Meta发布的最新研究成果：即，在没有任何RLHF的情况下，使用1000个精心筛选的提示和响应「对LLaMA-65B进行微调得到了LIMA模型」，实验表明该模型展现出了非常强大的性能，最后作者指出「几乎所有大型语言模型的知识都是在预训练期间学习的，仅需要有限的指导调整数据来教模型产生高质量的输出」。https://arxiv.org/pdf/2305.11206.pdf

背景介绍

通过大量的数据对语言模型进行预训练，使它们能够学习通用的表示形式并成功的预测出下一个表示，通过迁移可以适配任何语言理解和生成任务。为了实现这种转移，目前已经提出了各种对齐语言模型的方法，主要集中在通过大规模的数据集(上百万)进行指令调优，以及基于人工反馈的强化学习（RLHF）。现有的对齐方法需要大量计算和专业数据才能实现类似ChatGPT的性能。但是「本文证明了，只要有一个强大的预训练语言模型，只需在1000个精心筛选的训练示例上进行微调，就可以实现相当强的性能」。

本文认为对齐是一个简单的过程。为了验证这个假设，精选了1000个近似真实用户提示和高质量回复样本。其中，考虑到数据的质量和多样性，从社区论坛中选择了750个最佳的问题和回答，如Stack Exchange和wikiHow；除此之外，为进一步优化任务多样性，手动编写了250个提示和回复的示例，强调以AI助手的响应风格，最后应用这1000组数据微调LLaMA-65B得到LIMA。

在300个具有挑战性的测试提示中将LIMA与最先进的语言模型产品进行了比较。在人类偏好研究中，发现LIMA优于OpenAI 的DaVinci-003（基于RLHF训练）以及Alpaca-65B（基于52000个例子上训练得到的）。虽然目前人们更侧重喜欢GPT-4、Claude和Bard的响应生成，但情况并非总是如此，相比之下LIMA分别在43%、46%和58%的案例中产生了相同或更好的响应。「对LIMA响应生成进行绝对量化后，发现88%的回复符合提示要求，其中50%被认为是优秀的」。

消融实验表明，在不扩大提示多样性的情况下扩大数据量时，收益会大大减少，而在优化数据质量时，收益会显着增加。此外，尽管对话示例为零的情况下，我们发现LIMA可以进行连贯的多轮对话，并且可以通过向训练集中仅添加30个手工制作的多轮对话来显着提高模型对话能力。

对齐假设

本文呢定义了“表面对齐假设”：「模型的知识和能力几乎完全是在预训练期间学习的，而对齐则教会它在与用户交互时应该使用哪种格式分布」。如果这个假设是正确的，并且对齐主要是关于学习风格，那么表面对齐假设的一个推论是，可以用相当少的例子充分调整一个预训练的语言模型。

为此，本文收集了一个包含1000个提示和响应的数据集，其中输出（响应）在风格上相互一致，但输入（提示）是多种多样的。具体来说，主要是寻求有用的AI助手风格的输出。「我们从各种来源整理此类示例，主要分为社区问答论坛和手动编写的示例」。我们还收集了一个包含300个提示的测试集和一个包含50个提示的开发集。下表1显示了不同数据源的概览并提供了一些统计数据。

LIMA训练

对于模型LIMA的训练。主要是利用1000个示例对齐的训练数据集对LLaMA进行微调。为了区分说话人（用户和助手），在每个话语结束时引入一个特殊的回合结束标记（EOT），「这个标记的作用与停止生成的EOS相同，但避免了预训练模型可能赋予EOS标记的任何其他含义」。

我们遵循标准微调超参数：使用AdamW微调15个 epoch，其中，，权重衰减0.1。在没有预热步骤的情况下，将初始学习率设置为，并在训练结束时线性衰减到。批量大小设置为32个示例（对于较小的模型为64个），超过2048个标记的文本将被修剪。与常规训练的一个显着区别是残差dropout的使用；我们遵循Ouyang 等人的方法，对残差连接应用dropout，从底层的开始，在最后一层将速率线性提高到（对于较小的模型，）。「我们发现困惑度与生成质量无关」，因此使用保留50个示例的开发集手动选择第5个和第10个时期之间的2个检查点。

实验结果

本文研究了五种不同的语言模型（Alpaca 65B，DaVinci003，Bard，Claude和GPT-4）产生的输出结果在人类偏好测验和GPT-4偏好测验中的表现，实验结果如下图所示：研究发现，「虽然Alpaca 65B拥有比其他模型更多的训练数据，但其产生的输出结果却普遍不如LIMA好」；DaVinci003的表现也类似，尽管其采用了更好的对齐方法RLHF。相反，Bard表现出比LIMA好的趋势，但同时也有58%的情况下，LIMA的输出结果跟Bard同等好或更好。最后，虽然Claude和GPT-4的表现普遍比LIMA好，但仍有一些情况下，LIMA的输出结果实际上更好，甚至连GPT-4也有19%的情况下喜欢LIMA的输出结果。

本文通过消融实验研究了训练数据的多样性、质量和数量对模型性能的影响。实验使用了一个7B参数的语言模型，在不同数据集上进行微调，针对不同研究问题，实验比较了不同数据集的效果，以及对数据进行不同的过滤处理后，模型性能的差异。如下图所示：其中，实验结果表明，从Stack Exchange数据集中「挑选质量较高的数据，在控制数据量的前提下，可以提高模型的性能」；同时，通过对比Stack Exchange和wikiHow数据集，实验发现更具「多样性的数据可以提高模型性能」。但是「单纯提高模型训练数据并不能提高模型性能」。

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

Meta最新模型：LIMA-65B，没有RLHF，模型效果远胜Alpaca！！

引言

背景介绍

对齐假设

LIMA训练

实验结果

推荐阅读

点击下方链接🔗关注我们

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“四川大学姜涛与爱人程月玲”，你们现在还好吗？

为了这部描述从“反右”到“文革”的禁片，田壮壮付出了十年不能拍片的代价

关于字节基建

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

生成图片，分享到微信朋友圈

Meta最新模型：LIMA-65B，没有RLHF，模型效果远胜Alpaca！！

引言

背景介绍

对齐假设

LIMA训练

实验结果

推荐阅读

点击下方链接🔗关注我们

您可能也对以下帖子感兴趣